Scikit-Learn এর Pipeline এবং make_pipeline ফাংশন

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Pipeline এবং Model Selection

204

Pipeline এবং make_pipeline ফাংশনগুলি Scikit-Learn এর দুটি গুরুত্বপূর্ণ টুল, যা মেশিন লার্নিং কাজের জন্য প্রসেসিং এবং মডেল ট্রেনিং এর ধাপগুলিকে একত্রিত করতে সহায়ক। এগুলি আপনাকে বিভিন্ন প্রি-প্রসেসিং স্টেপ এবং মডেল একত্রিত করতে সাহায্য করে, যা কোডিং স্টেপগুলোকে সুশৃঙ্খল এবং পুনঃব্যবহারযোগ্য করে তোলে।

Pipeline কী?

Pipeline হল Scikit-Learn এর একটি টুল যা একাধিক স্টেপ (যেমন, ডেটা স্কেলিং, ফিচার এনকোডিং, মডেল ট্রেনিং) একসাথে সজ্জিত করতে সহায়ক। এটি আপনাকে একাধিক মডেলিং স্টেপগুলি সোজাসুজি একত্রিত করে পুরো প্রক্রিয়াটি একসাথে প্রশিক্ষণ, পূর্বাভাস এবং মূল্যায়ন করার সুবিধা দেয়।

এই পদ্ধতি ব্যবহার করার মাধ্যমে আপনি ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিংয়ের জন্য আলাদা আলাদা কোড না লিখে একটি ধারাবাহিক চেইন তৈরি করতে পারেন।

Pipeline এর উপকারিতা:

সহজ এবং সুসংহত: একাধিক প্রক্রিয়া একত্রিত করে একটি সাধারণ API প্রদান করে।
ফিচার ইঞ্জিনিয়ারিং এবং মডেল ট্রেনিং: ডেটা প্রি-প্রসেসিং স্টেপ এবং মডেল ট্রেনিংকে একত্রিত করতে সাহায্য করে।
পরীক্ষা এবং মূল্যায়ন: Cross-validation বা Grid Search এর মতো কাজগুলো সহজেই করা যায়।

Pipeline এর কাজের ধাপ:

ডেটা প্রি-প্রসেসিং স্টেপ (যেমন, স্কেলিং, এনকোডিং):
ডেটার স্কেলিং বা অন্যান্য প্রি-প্রসেসিং স্টেপগুলি এখানে থাকবে। যেমন, StandardScaler বা OneHotEncoder।
মডেল ট্রেনিং স্টেপ:
মডেল প্রশিক্ষণের জন্য আপনি যে মডেলটি ব্যবহার করতে চান, যেমন Logistic Regression, SVM, বা RandomForestClassifier এখানে থাকবে।
ফিনিশিং স্টেপ:
মডেলটি প্রশিক্ষণ দেওয়ার পর, আপনি fit() মেথড ব্যবহার করে মডেলটি ট্রেন করতে পারেন এবং predict() মেথড দিয়ে পূর্বাভাস নিতে পারেন।

Scikit-Learn এর Pipeline উদাহরণ:

ধরা যাক, আপনি একটি ক্লাসিফিকেশন মডেল তৈরি করছেন যেখানে আপনাকে ডেটা স্কেলিং এবং মডেল ট্রেনিং একসাথে করতে হবে।

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.datasets import load_iris

# ডেটাসেট লোড করা
iris = load_iris()
X = iris.data
y = iris.target

# ডেটা প্রশিক্ষণ এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Pipeline তৈরি করা
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # স্কেলিং
    ('classifier', RandomForestClassifier())  # ক্লাসিফায়ার
])

# মডেল প্রশিক্ষণ
pipeline.fit(X_train, y_train)

# মডেল মূল্যায়ন
score = pipeline.score(X_test, y_test)
print(f'Model accuracy: {score}')

এখানে, আমরা StandardScaler এবং RandomForestClassifier একসাথে Pipeline ব্যবহার করে যোগ করেছি। এখন আমাদের কোডটি আরও সংক্ষিপ্ত এবং সুসংহত হয়েছে, কারণ স্কেলিং এবং মডেল প্রশিক্ষণ একসাথে করা হয়েছে।

make_pipeline ফাংশন

make_pipeline হল একটি শোর্টকাট ফাংশন যা একটি পাইপলাইন তৈরি করার প্রক্রিয়া আরও সহজ করে তোলে। আপনি যখন Pipeline তৈরি করেন, তখন প্রতিটি স্টেপের জন্য একটি নাম দিতে হয়, কিন্তু make_pipeline ব্যবহার করলে এটি আপনাকে স্বয়ংক্রিয়ভাবে স্টেপগুলির নাম প্রদান করে।

make_pipeline এর উদাহরণ:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris

# ডেটাসেট লোড করা
iris = load_iris()
X = iris.data
y = iris.target

# ডেটা প্রশিক্ষণ এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# make_pipeline ব্যবহার করা
pipeline = make_pipeline(StandardScaler(), RandomForestClassifier())

# মডেল প্রশিক্ষণ
pipeline.fit(X_train, y_train)

# মডেল মূল্যায়ন
score = pipeline.score(X_test, y_test)
print(f'Model accuracy: {score}')

এখানে, make_pipeline ব্যবহার করার মাধ্যমে আমরা StandardScaler এবং RandomForestClassifier একসাথে পাইপলাইনে যুক্ত করেছি, এবং এটি স্বয়ংক্রিয়ভাবে স্টেপগুলির নাম নির্ধারণ করেছে।

Pipeline এবং make_pipeline এর মধ্যে পার্থক্য:

বৈশিষ্ট্য	Pipeline	make_pipeline
স্টেপ নাম	ব্যবহারকারীকে স্টেপের নাম দিতে হয়।	নামগুলি স্বয়ংক্রিয়ভাবে তৈরি হয়।
ব্যবহার	বিশেষভাবে নামকরণ করতে চান এমন ক্ষেত্রে ব্যবহৃত	কোডের সঙ্কুচিততার জন্য ব্যবহৃত।
গঠন	স্টেপগুলির একটি তালিকা এবং তাদের নামগুলো নির্দিষ্ট করা হয়	সরাসরি স্টেপগুলিকে পাস করা হয়, নামগুলো অটোমেটিক থাকে

সারাংশ:

Pipeline এবং make_pipeline দুটি গুরুত্বপূর্ণ টুল, যা একাধিক মেশিন লার্নিং স্টেপ যেমন ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিংকে একত্রিত করতে ব্যবহৃত হয়।
Pipeline ব্যবহার করলে স্টেপের নাম নির্দিষ্ট করা হয়, যেখানে make_pipeline স্বয়ংক্রিয়ভাবে নাম তৈরি করে এবং কোডের সঙ্কুচিততা উন্নত করে।
এই দুটি ফাংশন ডেটা প্রক্রিয়াকরণ এবং মডেল ট্রেনিংয়ের কাজ সহজ এবং পরিষ্কার করে তোলে, বিশেষ করে যখন আপনি মডেল নির্বাচনের জন্য GridSearchCV বা Cross-Validation ব্যবহার করছেন।

Content added By

SATT Academy

Pipeline কী এবং এর প্রয়োজনীয়তা Data Preprocessing এবং Model Training এর জন্য Pipeline তৈরি Model Selection Techniques এবং Evaluation

Scikit-Learn এর Pipeline এবং make_pipeline ফাংশন

Pipeline কী?

Pipeline এর উপকারিতা:

Pipeline এর কাজের ধাপ:

Scikit-Learn এর Pipeline উদাহরণ:

make_pipeline ফাংশন

make_pipeline এর উদাহরণ:

Pipeline এবং make_pipeline এর মধ্যে পার্থক্য:

সারাংশ:

Promotion

Satt AI

Hi, আমি SATT AI!

Scikit-Learn এর Pipeline এবং make_pipeline ফাংশন

Pipeline কী?

Pipeline এর উপকারিতা:

Pipeline এর কাজের ধাপ:

Scikit-Learn এর Pipeline উদাহরণ:

make_pipeline ফাংশন

make_pipeline এর উদাহরণ:

Pipeline এবং make_pipeline এর মধ্যে পার্থক্য:

সারাংশ:

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!